我们提出了对Zimmert和Seldin [2020]算法的修改调整,用于对抗性的多型匪徒,并具有延迟的反馈,除了Zimmert和Seldin的最小值最佳对抗性遗憾保证外,还可以同时获得近乎遗憾的遗憾。有固定的延迟。具体而言,对抗性遗憾保证是$ \ Mathcal {o}(\ sqrt {tk} + \ sqrt {dt \ log k})$,其中$ t $是时间范围,$ k $是武器数量,并且$ d $是固定的延迟,而随机遗憾保证是$ \ Mathcal {o} \ left(\ sum_ {i \ neq i^*}(\ frac {1} {\ delta_i} \ log log(t) frac {d} {\ delta_ {i} \ log k}) + d k^{1/3} \ log k \ right)$,其中$ \ delta_i $是次优差距。我们还向任意延迟的情况提供了算法的扩展,该算法基于对最大延迟$ d_ {max} $的甲骨文知识,并获得$ \ mathcal {o}(\ sqrt {\ sqrt {tk} + \ sqrt { d \ log k} + d_ {max} k^{1/3} \ log k)$在对抗性方案中遗憾,其中$ d $是总延迟,$ \ mathcal {o} \ left(\ sum_ {\ sum_ { i \ neq i^*}(\ frac {1} {\ delta_i} \ log(t) + \ frac {\ sigma_ {max}}} {\ delta_ {i} {1/3} \ log k \ right)$在随机制度中遗憾,其中$ \ sigma_ {max} $是最大的杰出观测值。最后,我们提出了一个下限,与Zimmert和Seldin [2020]在对抗环境中的跳过技术所达到的遗憾上限相匹配。
translated by 谷歌翻译